尽管变形金刚在段落的生成中取得了重大成功,但它们将句子视为令牌的线性序列,并且经常忽略其层次结构信息。先前的工作表明,输入令牌分解粒度〜(例如,单词,短语或句子)的水平已产生实质性改进,这表明可以通过更细粒度的粒度建模来增强变形金刚。在这项工作中,我们提出了粒度生成(C-DNPG)的粒度连续分解。为了有效地将粒度纳入编码句子中,C-DNPG引入了一种粒度感知的注意力(GA-注意)机制,该机制扩展了多头自我注意力,以:1)自动渗透句子的粒度头,该机制自动渗透了句子的等级结构通过神经估计每个输入令牌的粒度水平; 2)两个新的注意力面膜,即粒度共振和粒度范围,以有效地将粒度编码为注意力。在两个基准测试的实验(包括Quora问题对和Twitter URL)上表明,C-DNPG的表现优于基线模型,而在许多指标方面,C-DNPG的基线模型优于基线模型。定性分析表明,C-DNPG确实具有有效性捕获细粒度的粒度水平。
translated by 谷歌翻译
我们研究视觉变压器(VIT)的半监督学习(SSL),尽管VIT架构广泛采用了不同的任务,但视觉变形金刚(VIT)还是一个不足的主题。为了解决这个问题,我们提出了一条新的SSL管道,该管道由第一个联合国/自制的预训练组成,然后是监督的微调,最后是半监督的微调。在半监督的微调阶段,我们采用指数的移动平均线(EMA) - 教师框架,而不是流行的FixMatch,因为前者更稳定,并且为半手不见的视觉变压器提供了更高的准确性。此外,我们提出了一种概率的伪混合机制来插入未标记的样品及其伪标签以改善正则化,这对于训练电感偏差较弱的训练VIT很重要。我们所提出的方法被称为半vit,比半监督分类设置中的CNN对应物获得可比性或更好的性能。半vit还享受VIT的可伸缩性优势,可以很容易地扩展到具有越来越高的精度的大型模型。例如,半效率总数仅使用1%标签在Imagenet上获得令人印象深刻的80%TOP-1精度,使用100%ImageNet标签与Inception-V4相当。
translated by 谷歌翻译
在本文中,我们研究了如何在视觉和语言(V+L)表示学习中使用蒙版的信号建模。与其独立开发蒙面语言建模(MLM)和蒙面图像建模(MIM),我们建议建立关节蒙面的视觉和语言建模,其中一种模态的掩盖信号是在另一种方式的帮助下重建的。这是由图像文本配对数据的性质和文本传达几乎相同的信息但以不同格式传达的。在另一种模态下进行的一种模式的掩盖信号重建也可以隐式学习语言令牌和图像贴片之间的跨模式对齐。我们对各种V+L任务的实验表明,该建议的方法不仅可以通过使用大量数据来实现最先进的性能,而且还可以通过有限的培训数据的制度优于其他竞争对手。
translated by 谷歌翻译
大多数现有的作品在少数拍摄对象检测(FSOD)上的工作重点是从类似域中进行预训练和几乎没有弹出的学习数据集的设置。但是,在多个域中,很少有射击算法很重要。因此,评估需要反映广泛的应用。我们提出了一个多域数少数对象检测(MOFSOD)基准,该基准由来自各个域的10个数据集组成,以评估FSOD算法。我们全面分析了冷冻层,不同的体系结构和不同的预训练数据集对FSOD性能的影响。我们的经验结果表明,以前的作品中尚未探索过的几个关键因素:1)与以前的信念相反,在多域基准测试中,微调(FT)是FSOD的强大基线,在PAR上表现或更好最先进的(SOTA)算法; 2)利用FT作为基线使我们能够探索多个体系结构,我们发现它们对下游的几杆任务产生重大影响,即使具有类似的训练性能; 3)通过取消预训练和几乎没有学习的学习,MOFSOD使我们能够探索不同的预训练数据集的影响,并且正确的选择可以显着提高下游任务的性能。基于这些发现,我们列出了可能提高FSOD性能的调查途径,并对现有算法进行了两次简单修改,这些算法导致MOFSOD基准上的SOTA性能。该代码可在https://github.com/amazon-research/few-shot-object-detection-benchmark上获得。
translated by 谷歌翻译
近年来,人们对使用深层神经网络(DNN)进行超分辨率图像重建引起了极大的兴趣,包括结构化照明显微镜(SIM)。尽管这些方法显示出非常有希望的结果,但它们都依赖于数据驱动的,有监督的培训策略,这些培训策略需要大量的地面真相图像,这在实验上很难实现。对于SIM成像,存在一种需要灵活,一般和开源的重建方法,可以很容易地适应不同形式的结构化照明。我们证明,我们可以将深层神经网络与结构化照明过程的正向模型相结合,以在没有训练数据的情况下重建子分量图像。可以在一组衍射有限的子图像上优化所得的物理信息神经网络(PINN),因此不需要任何训练集。我们通过模拟和实验数据显示,可以通过简单地更改损失函数中使用的已知照明模式,并可以实现与理论期望非常匹配的分辨率改进,将此Pinn应用于多种SIM方法。
translated by 谷歌翻译
原始收集的培训数据通常带有从多个不完美的注释器中收集的单独的嘈杂标签(例如,通过众包)。通常,首先将单独的嘈杂标签汇总为一个,并应用标准培训方法。文献还广泛研究了有效的聚合方法。本文重新审视了此选择,并旨在为一个问题提供一个答案,即是否应该将单独的嘈杂标签汇总为单个单个标签或单独使用它们作为给定标签。我们从理论上分析了许多流行损失功能的经验风险最小化框架下的两种方法的性能,包括专门为使用嘈杂标签学习的问题而设计的损失功能。我们的定理得出的结论是,当噪声速率较高时,标签分离优于标签聚集,或者标记器/注释的数量不足。广泛的经验结果证明了我们的结论。
translated by 谷歌翻译
临床上,病变/组织的准确注释可以显着促进疾病诊断。例如,对眼底图像的视盘/杯/杯(OD/OC)的分割将有助于诊断青光眼诊断,皮肤镜图像上皮肤病变的分割有助于黑色素瘤诊断等。随着深度学习技术的发展,广泛的方法证明了病变/组织分割还可以促进自动疾病诊断模型。但是,现有方法是有限的,因为它们只能捕获图像中的静态区域相关性。受视觉变压器的全球和动态性质的启发,在本文中,我们提出了分割辅助诊断变压器(SeaTrans),以将分割知识转移到疾病诊断网络中。具体而言,我们首先提出了一种不对称的多尺度相互作用策略,以将每个单个低级诊断功能与多尺度分割特征相关联。然后,采用了一种称为海块的有效策略,以通过相关的分割特征使诊断特征生命。为了模拟分割诊断的相互作用,海块首先根据分段信息通过编码器嵌入诊断功能,然后通过解码器将嵌入的嵌入回到诊断功能空间中。实验结果表明,关于几种疾病诊断任务的海洋侵蚀超过了广泛的最新(SOTA)分割辅助诊断方法。
translated by 谷歌翻译
眼底图像的视盘(OD)和视杯(OC)的分割是青光眼诊断的重要基本任务。在临床实践中,通常有必要从多位专家那里收集意见,以获得最终的OD/OC注释。这种临床常规有助于减轻单个偏见。但是,当数据乘以注释时,标准深度学习模型将不适用。在本文中,我们提出了一个新型的神经网络框架,以从多评价者注释中学习OD/OC分割。分割结果通过迭代优化多评价专家的估计和校准OD/OC分割来自校准。这样,提出的方法可以实现这两个任务的相互改进,并最终获得精制的分割结果。具体而言,我们提出分化模型(DIVM)和收敛模型(CONM)分别处理这两个任务。 CONM基于DIVM提供的多评价专家图的原始图像。 DIVM从CONM提供的分割掩码中生成多评价者专家图。实验结果表明,通过经常运行CONM和DIVM,可以对结果进行自校准,从而超过一系列最新的(SOTA)多评价者分割方法。
translated by 谷歌翻译
随着深度学习技术的发展,从底眼图像中提出了越来越多的方法对视盘和杯子(OD/OC)进行分割。在临床上,多位临床专家通常会注释OD/OC细分以减轻个人偏见。但是,很难在多个标签上训练自动化的深度学习模型。解决该问题的一种普遍做法是多数投票,例如,采用多个标签的平均值。但是,这种策略忽略了医学专家的不同专家。通过观察到的观察,即在临床上通常将OD/OC分割用于青光眼诊断,在本文中,我们提出了一种新的策略,以通过青光眼诊断性能融合多评分者OD/OC分割标签。具体而言,我们通过细心的青光眼诊断网络评估每个评估者的专业性。对于每个评估者,其对诊断的贡献将被反映为专家图。为了确保对不同青光眼诊断模型的专家图是一般性的,我们进一步提出了专家生成器(EXPG),以消除优化过程中的高频组件。基于获得的专家图,多评价者标签可以融合为单个地面真相,我们将其称为诊断第一基地真相(diagfirstgt)。实验结果表明,通过将diagfirstgt用作地面真相,OD/OC分割网络将预测具有优质诊断性能的面膜。
translated by 谷歌翻译
标签噪声过渡矩阵,表示从干净标签到嘈杂标签的过渡概率,对于设计统计上强大的解决方案至关重要。噪声过渡矩阵的现有估计器,例如,使用锚点或凝集性,专注于相对容易获得高质量表示的计算机视觉任务。我们观察到,由于非信息和信息性表示的共存,具有较低质量特征的任务无法满足锚点或凝聚力条件。为了解决这个问题,我们提出了一种通用和实用的信息理论方法,以减少质量较低特征的信息不足的部分。这种改进对于识别和估计标签噪声转变矩阵至关重要。显着的技术挑战是仅使用嘈杂标签而不是干净的标签来计算相关的信息理论指标。我们证明,著名的$ f $ - 潮流信息度量通常可以在使用嘈杂标签计算时保留订单。然后,我们使用此蒸馏版本的功能构建过渡矩阵估计器。通过评估具有较低质量特征的各种表格数据和文本分类任务的估计误差,还可以通过评估拟议方法的必要性和有效性。代码可在github.com/ucsc-real/beyondimages上找到。
translated by 谷歌翻译